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Beschreibung 

Sprachsteuerung von Audio- und Videogeraten 

5 Durch die Gesetzgebung und zur Erhohung der Sicherheit wird 
die Benutzung von Spracherkennung bei Applikationen im Auto- 
motive-Bereich in Zukunft verstarkt Anwendung finden. Neben 
Telephonieanwendungen werden Sprachsteuerungen mittlerweile 
auch fur Telematiksysteme, Inf otainment-Systeme und In-Car- 
10 Systeme wie Klimaanlagen eingesetzt. Das verwendete Vokabular 
ist durch die aktuellen Erkenner bedingt einfach struktu'riert 
und in der Regel kommandobasiert . 

Die Sprachsteuerung von CD-Geraten erfolgt dabei in derzeiti- 
15 gen Produkten raittels Kommandos fur die Grundbefehle wie etwa 
"Stopp", "Play", "Pause" etc. Die Auswahl der zu spielenden 
Titel wird mittels der Nummer des Titels eingegeben, also 
beispielsweise durch "Play 5". Der Erkenner kann sich dabei 
auf das Erkennen des Kommandowortes in Verbindung mit einer 
20 Zahl beschranken. Da der Benutzer jedoch die Zuordnung der 
Titel zur Nummer auf der CD oftmals nicht kennt, ist dies 
Vorgehensweise unkomf ortabel . 

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, die 
25 Bedienung von Audio- und Videogeraten einfacher, komfortabler 
und sicherer zu machen. 

Diese Aufgabe wird durch die in den unabhangigen Patentan- 
spriichen angegebenen Erfindungen gelOst. Vorteilhafte Ausges- 
30 taltungen ergeben sich aus den abh&ngigen Anspruchen. 

Dementsprechend sind in einem Verfahren zur Spracherkennung 
Multimediadaten auf einem Speichermedium gespeichert. Den 
- — Multimediadaten sind Textdaten zugeordnet. In einer Graphem- 
35 zu-Phonem-Konvertierung werden die Textdaten als Grapheme 
Phonemen zugeordnet. Sodann kSnnen die Textdaten mit ihren' 
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zugehSrigen Phonemen als Vokabular eines Spracherkenners ver- 
wendet werden. 

Dadurch ergibt sich ein sehr reduziertes und auf die jeweili- 
ge Audio- und/oder Videoanwendung spezif iziertes Erkennervo- 
kabular, das auch von einem Spracherkenner mit sehr geringen 
Ressourcen verarbeitet werden kann, wie er tiblicherweise bei 
eingebetteten Spracherkennungslosungen im Auto Oder in ande- 
ren Video- und/oder Audiogeraten vorliegt. 

Durch diese Vorgehensweise wird es ermoglicht, einen Titel 
beispielsweise durch "Play Waterloo" oder nur "Waterloo" di- 
rekt einzugeben, ohne dass der Benutzer sich wahrend der Au- 
tofahrt nebenbei noch die richtige Titelnummer iiberlegen 
muss. Speziell bei Audiosystemen mit CD-Wechslern ist ein di- 
rekter Zugriff wiinschenswert . 

Multimediadaten konnen Audio-, Video- oder Bilddaten sein. 
Das Speichermedium kann eine Audio-CD, eine Video-CD, eine 
DVD, ein rnp3-Player, ein Festplatten-Videorekorder, eine 
Festplatte, eine Photo-CD, eine Diskette, ein USB-Stick, eine 
Mini-Disc oder jedes andere fest eingebaute oder wechselbare 
bzw, portable Speichermedium ein. 

Gemafi einer Ausfuhrungsf orm sind die Multimediadaten Audioda- 
ten und das Speichermedium eine CD. 

Soweit die CD CD-Text aufweist, sind die den Audiodaten zuge- 
ordneten Textdaten auf der CD als CD-Text gespeichert. Diese 
konnen dann direkt fur die Graphem-zu-Phonem-Konvertierung 
herangezogen werden. 

Die Multimediadaten konnen beispielsweise MP3-Daten sein. 
.Dann sind die Textdaten vorzugsweise in einer Playlist ge- 
speichert . 
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.Die den Multimediadaten zugeordneten Textdaten k6nnen auch 
allgemein in einem Inhaltsverzeichnis des Speichermediums ge- 
speichert sein, das die Multimediadaten enthalt. 

5. Gemafi einer Ausfuhrungsform sind die Multimediadaten Videoda- 
ten. Das Speichermedium kann dabei zum Beispiel eine DVD 
sein . 

Alternativ oder erganzend k6nnen die den Multimediadaten zu- 
10 geordneten Textdaten von einer zentralen Datenbank abgerufen 
werden, insbesondere liber das Internet aus einer Internet- 
Datenbank. 

Die Textdaten enthalten vorzugsweise den Namen des oder der 
15 Interpreten und/oder den Titel der Multimediadaten, denen sie 
zugeordnet sind. 

Insbesondere wird uber das Verfahren ein MutlimediagerSt mit 
Hilfe des Spracherkenners gesteuert. Das Multimediagerat kann 
20 ein CD-Player, ein mp3-Player, ein CD-Wechsler, ein Mini- 
Disc-Player, ein Videorekorder, ein DVD-Player oder ein ver- 
gleichbares Gerat sein. 

In einem weiteren Schritt konnen die Textdaten tiber eine 
25 Text-zu-Sprache-Konvertierung akustisch ausgegeben werden, so 
dass dem Benutzer seine Wahlm6glichkeiten, insbesondere hin- 
sichtlich Titel und Interpreten, vorgelesen werden. 

Eine Anordnung, die eingerichtet ist, eines der geschilderten 
30 Verfahren auszuftihren, lasst sich zum Beispiel durch Program- 
mieren und Einrichtung einer Datenverarbeitungsanlage mit zu 
den genannten Verf ahrensschritten gehorigen Mitteln realisie- 
ren. 

35 Die Anordnung kann beispielsweise ein Autoradio, insbesondere 
integriert mit Navigationssystem, ein CD-Spieler und/oder ein 
DVD-Spieler sein. 
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Weitere Merkmale und Vorteile der Erfindung ergeben sich aus 
der Beschreibung von Ausfuhrungsbeispielen. 

In einem Verfahren zur Spracherkennung wird eine Graphem-zu- 
Phonem-Technologie bei einem eingebetteten Spracherkenner da- 
zu verwendet, dass die Titelnamen von Songs in Phonem-Folgen 
konvertiert werden und als Erkennervokabular zur sprachlichen 
Ansteuerung von CD-, DVD- und/oder MP3-Playern eingesetzt 
werden. Dies erlaubt dem Benutzer eine direkte Anwahl der 
Songs ttber Titel, Interpreten oder alternativ konventionell 
liber die gewohnte Nummern-Nomenklatur . 

Werden zu den als Vokabular aufbereiteten Titeln verschiede- 
ner CDs die zugeordneten Positionen im CD-Wechsler vermerkt, 
kann bei der sprachlichen Eingabe der Titel erkannt und einer 
bestimmten CD zugeordnet werden. Der Wechsler kann die ge- 
wunschte CD einlegen und den gew&hlten Song abspielen. Die 
Vokabulargrofie in einem 5-f ach-Wechsler mit jeweils 20 Lie- 
dern pro CD betragt demnach ca. 100 EintrSge. Dies stellt ei- 
ne VokabulargroJSe dar, die mit gangiger Technologie von ein- 
gebetteten Spracherkennern abgedeckt werden kann. 

Da Song-Titel in unterschiedlichen Sprachen vorliegen konnen, 
ist vor der Konvertierung der Titel in Phonem-Folgen eine 
Sprachidentifikation durchzuf lihren, die den geeigneten Pho- 
nem-Set und die korrekten sprachspezif ischen Konvertierungs- 
regeln festlegt. 

Bei Audio-CDs liegen die Song-Titel in Textform auf CD-Text- 
kompatiblen CDs vor. Als alternative LSsung in vernetzten 
Fahrzeugen kann die Titelliste per Download zur Verfugung ge- 
stellt werden. 

Es werden also Textdaten von Audio- und/oder Videomedien als 
Vokabularbasis fur den Spracherkenner verwendet. Die direkte 
Sprachanwahl von Songtiteln erlaubt eine komfortable und fur 
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den Fahrer wenig ablenkende Methode zur Bedienung des CD- und 
MP3-Equipments in Fahrzeugen. Durch die Nutzung der Graphem- 
zu-Phonem-Technologie kann diese direkte Sprachanwahl reali- 
siert werden und dem Benutzer im Rahmen seiner Sprach- 
5 Bedienoberflache zur Verfiigung gestellt werden. 

Das vorgestellte Verfahren ist aufgrund seiner Sichtbarkeit 
an der Benutzeroberf lSche leicht nachweisbar. Durch die deut- 
liche Komforterh6hung ist der Mehrwert durch den Benutzer 
10 groJi und erkennbar. Da sich sprecherunabh^ngige Systeme auf 
iSngere Frist auch im Automotive-Bereich durchsetzen werden, 
bietet sich eine sprachliche CD- und/oder DVD-Ansteuerung als 
ideale Erganzung an. 

15 Das Verfahren kann beispielsweise direkt fur CDs im CD-Text- 
Format verwendet werden. Auf einer Audio-CD sind neben den 
eigentlichen Musikdaten noch Zusatzdaten gespeichert, so ge- 
nannte "Sub-Channels". Es gibt dabei acht Sub-Channels (p, q, 
r, s, t, u, v und w) . Der q-Sub-Channel enthSlt beispielswei- 

20 se Informationen tiber die momentane Position. Eine besondere 
Stellung nimmt der Leadin-Bereich ein. Der Leadin-Bereich ist 
ein Bereich vor den normalen Musikdaten und enthalt in den 
q-Sub-Channels die "Table of Contents" (TOC) der CD, also das 
Inhaltsverzeichnis der CD. In der TOC sind die Anf angspositi- 

25 onen der einzelnen Tracks gespeichert. In den Sub-Channels 
r-w des Leadins werden nun die CD-Text-Inf ormationen gespei- 
chert, beispielsweise der Name der CD, die Namen der Tracks 
sowie die Interpreten. 

30 Mit dieser Information kann fur den Spracherkenner ein Voka- 
bular dynamisch erzeugt werden. Dank Graphem-zu-Phonem- 
Konvertierung konnen dabei die Textdaten in Erkenner- 
verstandliche Phonemketten umgesetzt werden. Zur Bedienung 

. _„ kann dann das Vokabular oder Teile davon zur Steuerung des 

35 Audio- und/oder Videogerats verwendet werden. 
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Patentansprtlche 

1. Verfahren zur Spracherkennung, 

- bei dem Multimediadaten auf einem Speichermedium gespei- 

chert sind, 

- bei dem den Multimediadaten jeweils Textdaten zugeordnet 

sind, 

- bei dem Grapheme der Textdaten Phonemen zugeordnet werden, 

- bei dem die Textdaten mit ihren zugehorigen Phonemen als 

Vokabular eines Spracherkenners verwendet werden. 

2. Verfahren nach Anspruch 1, 

bei dem die Multimediadaten Audiodaten sind und das Speicher- 
medium eine CD ist. 

3. Verfahren nach Anspruch 2, 

bei dem die den Audiodaten zugeordneten Textdaten auf der CD 
als CD-Text gespeichert sind. 

4. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem die Multimediadaten MP3-Audiodaten sind. 

5. Verfahren nach Anspruch 4, 

bei dem die Textdaten in einer Playlist gespeichert sind. 

6. Verfahren nach Anspruch 1, bei dem die Multimediadaten Vi- 
deodaten sind. 

7. Verfahren nach Anspruch 1, bei dem das Speichermedium eine 
DVD ist. 

8. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem die Textdaten in einem Inhaltsverzeichnis auf dem 
Speichermedium gespeichert sind. 
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9. Verfahren nach einem der vorhergehenden Anspriiche, 

bei dem die Textdaten von einer zentralen Datenbank abgerufen 

werden, insbesondere tiber das Internet. 

5 10. Verfahren nach einem der vorhergehenden Anspriiche, 

bei dem die Textdaten den Namen des Interpreten und/oder den 
Titel der Multimediadaten enthalten, denen sie zugeordnet 
sind. 

10 11. Verfahren nach einem der vorhergehenden Anspriiche, 

bei dem ein Multimediager&t iiber den Spracherkenner gesteuert 
wird. 

12. Verfahren nach einem der vorhergehenden Anspriiche, 

15 bei dem die Textdaten zumindest teilweise in einer Text-zu- 
Sprache-Konvertierung konvertiert und akustisch ausgegeben 
werden. 

13. Anordnung, die eingerichtet ist, ein Verfahren nach zu- 
20 mindest einem der vorstehenden Anspriiche auszufiihren. 

14. Anordnung nach Anspruch 13, 
dadurch gekennzeichnet, 

dass die Anordnung ein Auto, ein Autoradio, ein CD-Spieler 
25 und/oder ein DVD-Spieler ist. 
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